IT168首页 > 陶然
  • DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

    近日,百度智能云千帆大模型平台正式上线了DeepSeek-R1与DeepSeek-V3模型,模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。百度智能云针对此次模型上线提供了行业领先的超低推理价格,低至DeepSeek官方刊例价3-5折,当前还可享受限时免费服务。

    陶然 · 2025-02-12 09:21
  • DeepSeek-V3 高效训练关键技术分析

    本文从模型架构、并行策略、通信优化和显存优化四个方面展开,深入分析了DeepSeek-V3高效训练的关键技术,探讨其如何以仅5%的算力实现对标GPT-4o的性能。

    陶然 · 2025-02-11 14:05
  • S型智能增长曲线:从Deepseek R1看Scaling Law的未来

    本文后面打算用S型智能增长曲线来解释我们目前看到的Scaling Law的一些现象。其实智能发展应该遵循S型曲线,这不是新观点,LLM最大的反对派Lecun和第二大反对派马库斯,去年在Twitter上就反复提过这个观点,以此作为否定LLM未来发展的重要依据。

    陶然 · 2025-02-11 09:57
  • 网易实践:用Apache Kyuubi构建云原生Spark网关

    本文基于网易数帆软件工程师、Apache Kyuubi/Zeppelin PMC 成员潘成老师的分享整理汇总。通过本文,可以从网易在 Spark 服务化的经验中,学习如何使用 Apache Kyuubi 构建统一的 Spark 网关,既满足业务团队多样的 Spark 使用方式,又可以适配不同基础设施环境中多样的 Spark 部署方式。

    陶然 · 2025-02-10 14:06
  • 大白话说清楚DeepSeek的蒸馏技术到底是什么?

    DeepSeek R1火了之后,模型蒸馏这个词儿也跟着火了。一方面,OpenAI暗戳戳的(其实已经算明指了)表示DeepSeek就是用GPT的数据来做的蒸馏(别人说你起诉啊,OpenAI又说不);另一方面,的确真有很多知名的公司利用R1版模型蒸馏出更多小模型,有基于Llama的,也有基于Qwen的,效果都不错。

    陶然 · 2025-02-10 10:12
  • 数据中心计算引擎的前路:CPU篇

    新年伊始,数据中心计算引擎一直是我们重点关注的领域。为此,我们花时间整理了一套涵盖2023年至2027年的CPU、GPU和AI加速器的综合路线图。今天,我们将聚焦于目前市场上现有的以及即将推出的主流CPU,GPU和定制AI加速器则会另行讨论。

    陶然 · 2025-02-07 17:55
  • 专有云ABC Stack面向企业级智算平台的GPU提效实践

    从「建好」到「用好」,企业级智算平台借助专有云 ABC Stack 的 GPU 提效服务,应对大模型业务挑战,唤醒 AI 算力,加速 AI 原生业务的落地。

    陶然 · 2025-02-07 15:16
  • B站自研的第二代视频连麦系统(上)

    本系列文章将从客户端、服务器以及音视频编码优化三个层面,介绍如何基于WebRTC构建视频连麦系统。希望通过这一系列的讲解,帮助开发者更全面地了解 WebRTC 的核心技术与实践应用。

    陶然 · 2025-02-07 13:58
  • 浅谈团队如何做好系统稳定性

    稳定性建设需要一系列具体的建设活动推进和落地,这些建设活动涉及人员、机制和文化,全方位的建设活动才能更好地落实建设模式。

    陶然 · 2025-02-06 13:53
  • 从铜线到云端:网络技术的跨越与未来趋势

    本文围绕物理网络和云网络基础知识科普进行展开,最后浅谈在AI大模型浪潮下云网络的演进方向。

    陶然 · 2025-02-06 09:38
  • 豆包视角:DeepSeek震撼硅谷——从发布到全球影响力的飞跃之旅

    2023年成立的中国人工智能初创公司DeepSeek,自发布以来便如一颗耀眼的新星,迅速在全球范围内掀起波澜。它的出现,不仅改变了人工智能领域的竞争格局,更对美国乃至全球的科技产业、资本市场和社会发展产生了深远影响。

    陶然 · 2025-02-06 09:16
  • 十亿级订单系统的数据库查询性能优化之路

    系统概要:BIP采购系统用于京东采销部门向供应商采购商品,并且提供了多种创建采购单的方式以及采购单审批、回告、下传回传等业务功能。系统价值:向供应商采购商品增加库存,满足库存周转及客户订单的销售,供应链最重要的第一环节

    陶然 · 2025-02-05 16:22
  • 货拉拉Flink CDC实践:稳定性建设与数据入湖新探索

    大型模型在实际应用中,评估阶段尤为重要。本文将分享货拉拉在大模型应用测评框架方面的实践。

    陶然 · 2025-02-05 14:07
  • 提示词工程的十大认知误区

    在系统学习了大量提示词教程并进行不断实践后,我发现很多人对提示词工程的认知存在诸多误解。本文将列举一些提示工程认知和创作方面的认知误区,并分享我的一些见解,希望能够为读者提供启发。

    陶然 · 2025-02-05 10:16
  • Gartner预测2025年IT支出将增长10%,但不要过分乐观

    Gartner 公司预计,2025 年全球信息技术支出将增长 9.8% 至 5.61 万亿美元,远高于 2024 年 7.7% 的增长率,但现在还不是庆祝的时候。

    陶然 · 2025-01-27 21:11
  • 服务器封箱:2024变革收官,2025增长在望

    随着春节假期的临近,我们即将告别充实的2024年。在这一年里,服务器领域作为数字经济的核心基础设施,持续经历着技术革新与市场变革。站在这新旧交替的节点,让我们一同回顾2024年服务器领域的技术趋势,并展望2025年服务器市场的发展走向。

    陶然 · 2025-01-27 16:49
  • 操作系统能知道自己是在虚拟机中运行的吗?

    这是最后的机会,之后你将无法回头。服下蓝药丸,故事结束,你会在床上醒来,继续信任你愿意相信的一切。服下红药丸,你将留在仙境,我会带你走进兔子洞,告诉你真相有多深……记住,我所提供的,只有真相,仅此而已……

    陶然 · 2025-01-27 14:09
  • DeepSeek火了!服务器都崩了

    今日,国内AI初创公司DeepSeek官网显示,DeepSeek网页/API不可用。1月26日,DeepSeek就曾出现短时闪崩现象。据DeepSeek回应,其服务再次“宕机”,源自新模型发布后,用户访问量激增所致。

    陶然 · 2025-01-27 13:10
  • 2025年及以后的开源发展趋势

    在过去的几十年里,开源软件(OSS)已经从仅仅是一个“便宜的选项”转变为企业基础设施的“优越选择”。现在,与专有软件相比,它通常能够提供更高的质量、更强的安全性、更好的隐私性、更优的可扩展性和创新性。如今96%的软件都依赖于开源,这并非巧合,大型企业越来越倾向于投资基于OSS的解决方案,以利用这些优势。

    陶然 · 2025-01-26 20:25
  • Baya Systems筹集3600万美元助力AI芯片组设计变革

    芯片设计初创公司 Baya Systems Inc. 今日宣布完成 3600 万美元融资,用于支持其业务增长并加速软件产品组合的开发,以满足新兴"芯片组"经济的需求。本轮 B 轮融资由 Maverick Silicon 和 Synopsys Inc. 领投,现有投资者 Matrix Partners 和 Intel Capital 也参与其中。

    陶然 · 2025-01-26 20:21